Trabajo final: Análisis espacial y Situaciones de riesgo

Grupo 5

Patricia Acetta
Henry Millones
Marta Rueda
Javier Terrazas
Josefina Urquiza

2023-10-11

Contexto

Se seleccionó el Problema 2.

El set de datos brindado es el archivo suelo_finca.txt presenta la información georreferenciada de 100 sitios de muestreo realizado en una finca agrícola.

Los límites del área de estudio se encuentran en el archivo suelo_finca_limites.txt . La finca se encuentra en Bogotá (Colombia).

Las variables relevadas fueron propiedades de suelo entre las cuales se presentan:

  • coordenadas (x e y),
  • pH,
  • conductividad eléctrica (CE),
  • materia orgánica (MO),
  • fósforo (P),
  • nitrógeno (N),
  • potasio (K),
  • capacidad de intercambio catiónico (CIC) y
  • contenido de arcilla (Arcilla).

Justificación

Se seleccionó la variable materia orgánica (MO). La materia orgánica aumenta la capacidad de adsorción de agua y la facilidad con que la misma es suministrada a las plantas, por lo que es un componente fundamental del suelo, y su presencia o ausencia puede afectar diversas propiedades y procesos del suelo.

Materia Orgánica %
<0.6 extremadamente pobre
0.6-1.2 pobre
1.2-1.8 medianamente pobre
1.8-2.4 medio
2.4-3.0 medianamente rico
3.0-4.2 rico
>4.2 extremadamente rico

Contenido de materia orgánica (%) Velasco Molina, 1983

Relación de la MO con otras variables medidas

  • pH del suelo: La materia orgánica puede actuar como un amortiguador del pH del suelo. Los ácidos húmicos y fúlvicos presentes en la materia orgánica pueden ayudar a mantener el pH del suelo en un rango adecuado para el crecimiento de las plantas.

  • Conductividad eléctrica (CE): La cantidad y tipo de materia orgánica en el suelo pueden influir en la conductividad eléctrica. La descomposición de la materia orgánica puede liberar iones en el suelo, afectando así su conductividad eléctrica.

  • Fósforo (P), nitrógeno (N) y potasio (K): La materia orgánica es una fuente importante de nutrientes para las plantas. Cuando la materia orgánica se descompone, libera nutrientes como nitrógeno, fósforo y potasio en formas que las plantas pueden absorber y utilizar para su crecimiento.

  • Capacidad de intercambio catiónico (CIC): La materia orgánica tiene una alta capacidad de intercambio catiónico, lo que significa que puede retener y liberar nutrientes para las plantas. Un suelo rico en materia orgánica tendrá una mayor CIC, lo que mejora la disponibilidad de nutrientes para las plantas.

  • Contenido de arcilla: La arcilla es un componente mineral del suelo y afecta la estructura del suelo. La materia orgánica puede interactuar con las partículas de arcilla para formar agregados del suelo, mejorando así la estructura del suelo y su capacidad para retener agua y nutrientes.

Objetivo

Realizar un análisis de la variabilidad espacial de la materia orgánica (MO) en la finca estudiada, empleando técnicas estadísticas y espaciales.

Esto implica identificar patrones de distribución y tendencias en los niveles de MO, así como evaluar la presencia de valores atípicos y su impacto en la variabilidad. A través del ajuste de semivariogramas empíricos y teóricos, se busca modelar la estructura de correlación espacial de la MO, permitiendo así realizar predicciones espaciales precisas. La validación cruzada y la comparación entre diferentes modelos ajustados se utilizan para evaluar y mejorar la calidad de las predicciones, proporcionando así una comprensión profunda de la distribución de la MO en la finca y ofreciendo orientación para prácticas agrícolas más efectivas y sostenibles.

Metodología

Se realiza un análisis descriptivo de la variable de interés, en este caso, la materia orgánica (MO), a través de gráficos y medidas de resumen.

Posteriormente, se realiza una representación espacial de los datos utilizando las coordenadas (x, y) en un mapa, mostrando la variación de los niveles de MO en la finca.

Luego, se procede a realizar el ajuste de semivariogramas empíricos y teóricos para la variable estudiada.

Se consideran diferentes modelos de correlación espacial y se selecciona el modelo de mejor ajuste utilizando criterios estadísticos recomendados.

A continuación, se realiza la predicción espacial de los valores de MO y se evalúa la calidad de la predicción mediante validación cruzada.

Se comparan los resultados obtenidos con al menos uno de los otros modelos ajustados, lo que permite hacer conclusiones sobre la calidad de la predicción y ofrecer sugerencias sobre los datos utilizados y posibles mejoras en el modelo.

Análisis descriptivo

Vista previa de los datos analizados:

x y pH CE MO N P K CIC Arcilla
482831.3 484221.3 7.20 0.413 1.35 6.19 4.92 0.22 8.28 18.15
482843.5 484222.4 6.60 0.511 1.39 7.56 9.31 0.33 7.01 20.70
482851.2 484225.7 7.14 0.371 1.29 6.82 5.14 0.31 9.11 15.50
482861.2 484227.9 6.70 0.503 1.48 7.21 7.92 0.37 5.98 20.70
482836.8 484201.4 6.67 0.508 1.61 7.39 8.94 0.39 6.62 20.66

Gráficos exploratorios

Se observa una distribución asimetrica a izquierda. Los niveles de MO observados son ligeramente bajos para lotes destinados a cultivos agrícolas/ganaderos.

Los valores atípicos que se observan son moderados, no hay valores atípicos extremos (coef = 3).

Medidas de resumen

A continuación se muestra las medidas resumen analizadas.

Media DE LI LS Min Max Asimetria
1.8734 0.4421737 0.7679657 2.978834 0.72 2.62 -0.7008558

A partir de las medidas de resumen calculadas se filtran los datos de MO que distan a mas de 2.5 desvíos de la media.

Además a través del Índice de Moran se calcularon los valores inliers y se descartaron.

Mapa de valores de MO (%) muestreados

Estos datos geostadísticos corresponden a un dominio continuo. En el centro de la finca se encuentran los mayores valores de MO y en los extremos norte y sobre todo sur, los menores valores de MO.

Análisis

Se analizó modelos con y sin tendencia en x e y (longitud y latitud).

Se ajustaron los semivariogramas empíricos y teóricos para MO.

Exploración de la tendencia en x e y

Ajuste de semivariograma empírico o experimental

(sin tener en cuenta tendencia)

modelo_exp_MO<-
  fit.variogram(semi_exp, vgm(c("Exp","Sph", "Gau")))
modelo_exp_MO
  model      psill    range
1   Nug 0.03536527   0.0000
2   Sph 0.13277193 184.6016

Ajuste de semivariograma teórico

(contemplando tendencia)

semi_teorico_MO_t<- variogram(MO ~ x + y, suelo_finca3)
modelo_teorico_MO_t <-
  fit.variogram(semi_teorico_MO_t, vgm(c("Exp","Sph", "Gau")))
modelo_teorico_MO_t
  model      psill    range
1   Nug 0.04266416  0.00000
2   Gau 0.07397060 47.02841

Comparación de los modelos ajustados

\(R^"\) del modelo lineal con tendencia en X e y:

[1] 6.952441

Suma de cuadrados del Error del modelo sin tendencia:

[1] 3.559798e-05

Suma de cuadrados del Error del modelo con tendencia:

[1] 7.892371e-05

Predicción espacial y su incertidumbre

La predicción se realizó utilizando Kriging Universal (MO~ X + Y).

La grilla de predicción utilizada fue de 5x5.

El numero máximo de vecinos considerados fue de 25.

[using universal kriging]

Evaluación de la calidad de la predicción

Se evaluó la calidad de la predicción del modelo seleccionado mediante validación cruzada.

k fold = 10

Métricas obtenidas de validación cruzada

ME MAE MAPE MSE MSNE RMSE RMSE_cv
0.0056055 0.2209768 12.24218 0.0713318 1.29685 0.2670802 13.66509

Conclusión

  • En la exploración de los datos se encontraron ouliers e inliers, los cuales fueron descartados.

  • Hay autocorrelación espacial hasta 44.8 mts.

  • En los gráficos se observa no estacionariedad, en x e y, y en el ajuste del modelo lineal, el \(R^2\) es bajo.

  • En los semivariogramas se observa mejor ajuste en el modelo con tendencia, además de tener una Suma de cuadrados del error baja. El mejor modelo que se ajusto es el Gaussiano.

  • La predicción se realizó con Kriging Universal, dado que se tuvo en cuenta la tendencia ajustada y que la media de la MO es desconocida. Las métricas de validación cruzada de este modelo, indican que es un buen ajuste modelo, RMSE = 0.2671 y RMSE_cv = 13.67%.

  • No se ajustaron modelos teniendo en cuenta covariables, como por ejemplo Regresion Kriging, Métodos Bayesianos, etc, por falta de tiempo, pero se considera importante poder explorar otro tipo de ajustes.

¡Muchas Gracias!